当样本通过深层神经网络时,功能,逻辑和标签是三个主要数据。近年来,功能扰动和标签扰动受到越来越多的关注。事实证明,它们在各种深度学习方法中很有用。例如,(对抗性)特征扰动可以提高学习模型的鲁棒性甚至概括能力。但是,有限的研究已明确探索了对逻辑向量的扰动。这项工作讨论了几种与类级别logit扰动有关的现有方法。建立了logit扰动引起的正/负数据扩大和损失变化之间的统一观点。提供理论分析以阐明为什么类级logit扰动有用。因此,提出了新的方法,以明确学习单标签和多标签分类任务的扰动逻辑。基准图像分类数据集及其长尾版本的广泛实验表明我们的学习方法的竞争性能。由于它仅在logit上,因此可以用作与任何现有分类算法融合的插件。所有代码均可在https://github.com/limengyang1992/lpl上找到。
translated by 谷歌翻译
图形神经网络(GNNS)可以使用深度学习对图进行分析,并在图中捕获结构化信息的结果有希望的结果。本文着重于创建一个小图来表示原始图,以便在尺寸降低的图上训练的GNN可以做出准确的预测。我们将原始图视为接收场的分布,并旨在合成一个小图,其接受场具有相似的分布。因此,我们通过接受场分布匹配(GCDM)提出了图形屈服,该图是通过使用最大平均差异(MMD)量化的分布匹配损耗来优化合成图来完成的。此外,我们证明了GCDM生成的合成图在评估阶段高度概括为各种模型,并且使用此框架可显着提高冷凝速度。
translated by 谷歌翻译
This paper creates a novel method of deep neural style transfer by generating style images from freeform user text input. The language model and style transfer model form a seamless pipeline that can create output images with similar losses and improved quality when compared to baseline style transfer methods. The language model returns a closely matching image given a style text and description input, which is then passed to the style transfer model with an input content image to create a final output. A proof-of-concept tool is also developed to integrate the models and demonstrate the effectiveness of deep image style transfer from freeform text.
translated by 谷歌翻译
随着自我监督学习的快速发展(例如,对比度学习),在医学图像分析中广泛认识到具有大规模图像(即使没有注释)来训练更具概括的AI模型的重要性。但是,大规模收集大规模任务的未注释数据对于单个实验室来说可能具有挑战性。现有的在线资源(例如数字书籍,出版物和搜索引擎)为获取大型图像提供了新的资源。然而,在医疗保健中发布的图像(例如放射学和病理学)由大量的带有子图的复合图组成。为了提取和分离化合物形象为下游学习的可用单个图像,我们提出了一个简单的复合图分离(SIMCFS)框架,而无需使用传统所需的检测边界框注释,并具有新的损失函数和硬案例模拟。我们的技术贡献是四倍:(1)我们引入了一个基于模拟的培训框架,该框架最小化了对资源广泛的边界框注释的需求; (2)我们提出了一种新的侧损失,可针对复合人物分离进行优化; (3)我们提出了一种阶层内图像增强方法来模拟硬病例; (4)据我们所知,这是第一项评估利用复合图像分离的自我监督学习功效的研究。从结果来看,提出的SIMCF在ImageClef 2016复合人物分离数据库上实现了最先进的性能。使用大规模开采数字的预审预革的学习模型通过对比度学习算法提高了下游图像分类任务的准确性。 SIMCF的源代码可在https://github.com/hrlblab/imageseperation上公开获得。
translated by 谷歌翻译
视频异常检测是计算机视觉社区的一项具有挑战性的任务。大多数基于任务的方法都不考虑独特的空间和时间模式的独立性,而两流结构则缺乏对相关性的探索。在本文中,我们提出了时空记忆增强了两个流动自动编码器框架,该框架可以独立学习外观正常和运动正常,并通过对抗性学习探索相关性。具体而言,我们首先设计了两个代理任务来训练两流结构,以隔离地提取外观和运动特征。然后,将原型特征记录在相应的空间和时间内存池中。最后,编码编码网络通过歧视者进行对抗学习,以探索空间和时间模式之间的相关性。实验结果表明,我们的框架优于最先进的方法,在UCSD PED2和CUHK Avenue数据集上,AUC达到98.1%和89.8%。
translated by 谷歌翻译
处理聚类问题在数据统计数据统计,模式识别和图像处理中很重要。平均换档算法是一种公共无监督算法,广泛用于解决聚类问题。然而,平均移位算法受其巨额计算资源成本的限制。在以前的研究[10]中,我们提出了一种新型GPU加速的更快的平均移位算法,这大大加快了余弦嵌入的聚类问题。在本研究中,我们扩展并改进了以前的算法来处理欧几里德距离度量。不同于传统的基于GPU的平均移位算法,我们的算法采用新颖的种子选择和早期停止方法,这大大提高了计算速度并降低了GPU存储器消耗。在仿真测试中,在处理200k点聚类问题时,与基于最先进的GPU的平均换档算法相比,我们的算法达到了3次加速度,具有优化的GPU存储器消耗。此外,在本研究中,我们实现了一种用于更快的平均移位算法的即插即用模型,可以轻松地部署。 (即插即用型号可用:https://github.com/masqm/faster-mean-shift-euc)
translated by 谷歌翻译
时空表示学习对于视频自我监督的表示至关重要。最近的方法主要使用对比学习和借口任务。然而,这些方法通过在潜在空间中的特征相似性判断所学习表示的中间状态的同时通过潜伏空间中的特征相似性来学习表示,这限制了整体性能。在这项工作中,考虑到采样实例的相似性作为中级状态,我们提出了一种新的借口任务 - 时空 - 时间重叠速率(Stor)预测。它源于观察到,人类能够区分空间和时间在视频中的重叠率。此任务鼓励模型区分两个生成的样本的存储来学习表示。此外,我们采用了联合优化,将借口任务与对比学习相结合,以进一步增强时空表示学习。我们还研究了所提出的计划中每个组分的相互影响。广泛的实验表明,我们的拟议Stor任务可以赞成对比学习和借口任务。联合优化方案可以显着提高视频理解中的时空表示。代码可在https://github.com/katou2/cstp上获得。
translated by 谷歌翻译
节点之间有序序列的动态图在现实世界的工业应用中普遍存在电子商务和社交平台中。然而,由于数据的时间和结构依赖性和不规则性,因此,对动态图表的表示学习已经提出了很大的计算挑战,防止这些模型部署到现实世界的应用程序。为了解决这一挑战,我们提出了一种有效的算法,有效的动态图学习(边缘),它通过训练丢失选择性地表达某些时间依赖性,以改善计算中的并行性。我们展示了边缘可以扩展到数百万节点的动态图形,数亿个时间事件,实现新的最先进的(SOTA)性能。
translated by 谷歌翻译
In this paper, we propose a robust 3D detector, named Cross Modal Transformer (CMT), for end-to-end 3D multi-modal detection. Without explicit view transformation, CMT takes the image and point clouds tokens as inputs and directly outputs accurate 3D bounding boxes. The spatial alignment of multi-modal tokens is performed implicitly, by encoding the 3D points into multi-modal features. The core design of CMT is quite simple while its performance is impressive. CMT obtains 73.0% NDS on nuScenes benchmark. Moreover, CMT has a strong robustness even if the LiDAR is missing. Code will be released at https://github.com/junjie18/CMT.
translated by 谷歌翻译
Dataset distillation has emerged as a prominent technique to improve data efficiency when training machine learning models. It encapsulates the knowledge from a large dataset into a smaller synthetic dataset. A model trained on this smaller distilled dataset can attain comparable performance to a model trained on the original training dataset. However, the existing dataset distillation techniques mainly aim at achieving the best trade-off between resource usage efficiency and model utility. The security risks stemming from them have not been explored. This study performs the first backdoor attack against the models trained on the data distilled by dataset distillation models in the image domain. Concretely, we inject triggers into the synthetic data during the distillation procedure rather than during the model training stage, where all previous attacks are performed. We propose two types of backdoor attacks, namely NAIVEATTACK and DOORPING. NAIVEATTACK simply adds triggers to the raw data at the initial distillation phase, while DOORPING iteratively updates the triggers during the entire distillation procedure. We conduct extensive evaluations on multiple datasets, architectures, and dataset distillation techniques. Empirical evaluation shows that NAIVEATTACK achieves decent attack success rate (ASR) scores in some cases, while DOORPING reaches higher ASR scores (close to 1.0) in all cases. Furthermore, we conduct a comprehensive ablation study to analyze the factors that may affect the attack performance. Finally, we evaluate multiple defense mechanisms against our backdoor attacks and show that our attacks can practically circumvent these defense mechanisms.
translated by 谷歌翻译